气象学中,对流指的是大气中由浮力产生的垂直运动所导致的热力输送,强对流天气通常指的是由深厚湿对流(DMC)产生的包括冰雹、大风、龙卷、强降水等各种灾害性天气,具有突发性、生命史短、局地性强、易致灾等特点。强对流天气预报尤其是分类强对流天气一直是业务天气预报的难点之一,热动力物理参数敏感性分析及利用“配料法”、统计分析方法以及高分辨率数值模式进行强对流客观预报方法的研究逐渐成为预报强天气潜势的基础(郑永光等,2015;2017;田付友等,2015;漆梁波,2015;雷蕾等,2011)。;Doswell Ⅲ(2001) 、俞小鼎等(2012)、孙继松等(2014)系统总结了DMC和不同类型强对流天气(冰雹、雷暴大风、短时强降水和龙卷)发生发展的环境条件、中尺度结构和特征,这些条件和结构特征是目前进行强对流天气分类预报的物理基础。近几年国内一些学者基于数值模式计算的对流参数利用配料法和模糊逻辑法开展了分类强对流潜势预报的业务化试验。曾明剑等(2015)基于中尺度数值模式预报的对流参数,综合历史频率分布和权重分配,构建了分类强对流天气预报概率,并以优势概率作为分类判据,做出强对流分类预报。雷蕾等(2012)将统计的强对流天气判别指标应用到数值模式(快速更新同化系统),计算模式格点上的强对流发生概率,并针对冰雹、雷暴大风和短时暴雨天气下不同物理量的阈值范围,实现了对强对流的分类概率预报。机器学习等人工智能的方法多应用在强对流临近识别和概率预报中,Mecikalski et al(2015)使用Logistic回归和人工智能随机森林(random forest, RF)等方法发展了基于卫星资料和数值模式资料的对流初生(CI)临近概率预报技术。李国翠等(2014)和张秉祥等(2014)基于雷达三维组网数据利用模糊逻辑方法分别开发了雷暴大风和冰雹的自动识别算法;周康辉等(2017)将模糊逻辑算法用于雷暴大风的监测识别,实现了雷暴大风和非雷暴大风的有效区分;修媛媛等(2016)用机器学习中有监督学习模型支持向量机(support vector machines, SVM)来进行强对流天气的识别和预报。
RF算法在近几年实际应用中得到了广泛关注,已经成为数据挖掘、模式识别等领域的研究热点,在生态学、水文学、经济学、医学等领域得到了广泛应用(张雷等,2014;李欣海,2013;石玉立和宋蕾,2015;侯俊雄等,2017;Belgiu and Drǎguȶ,2016 ;Chen et al,2017)。RF是一种基于分类回归树的数据挖掘方法,是由Breiman和Cutler在2001年提出的一种较新的机器学习技术(方匡南等,2011)。RF算法通过聚集大量分类树来提高模型预测精度,与决策树一样,可用来解决分类和回归问题,预测精度很高,在异常值和噪声方面有很高的容忍度,且不易出现过度拟合现象(Breiman,2001)。国内外学者将RF算法与传统的神经网络、SVM、Logistic等机器学习方法做了一些对比,黄衍和查伟雄(2012)证明RF泛化能力在多分类问题上优于SVM;梁慧玲等(2016)在基于气象因子的塔河地区林火发生预测模型研究中,得出RF模型的预测准确率高于传统Logistic模型10%左右;余胜男等(2016)研究表明RF模型预测精度较高、稳定性好、泛化能力强, 能有效预测年、月降水量,与BP神经网络模型和SVM模型相比,RF模型效率更高、性能更优,尤其适用于大样本的逐月降水量预测;白琳等(2017)和Zhang et al(2017)研究均证明RF算法比传统的多元线性回归的结果更为理想,处理非线性和分级关系更具优势;Naghibi et al(2017)应用RF、RFGA(random forest genetic algorithm)、SVM三种模型评估地下水资料的潜势,发现RF和RFGA比SVM更高效且更准确;Peters et al(2007)基于RF和Logistic模型建立了生态水文分布模型,对比得出RF的预测误差小于Logistic模型;Kampichler et al(2010)通过5种机器学习方法对比,发现RF明显优于神经网络、SVM等方法;Coussement and Van den Poel(2008)比较了SVM、Logistic模型和RF的客户流失预测能力,RF始终优于SVM和Logistic。由此可见,大量的研究表明RF算法在不同领域已取得较好的应用效果。
RF算法应运而生, 给解决很多问题带来了新的方向,但将RF应用于强对流的分类预测,相关研究为数不多。传统的配料法等通过挑选对不同类型强对流天气具有指示意义的物理量,根据历史个例的统计结果挑选预报因子,预测结果完全取决于天气学要素和物理量对强对流天气发生发展物理条件的代表性,而人工智能等机器学习算法可以建立在大数据集的应用基础上,通过智能化的筛选、组合多种因子进行预测分类,尤其在多分类预测方面有一定的优势,能够处理很高维度的数据,在训练完后,能够给出特征量的重要性排序,可以很好地预测多达几千个解释变量的作用。因此,